Q-learning相关论文
针对计算、能量和内存资源受限的矿山物联网设备和大量时延敏感型计算任务需求的智慧矿山场景,该文提出一种能量收集(EH)辅助的矿山物......
信息安全是影响物联网(IoT)应用的关键因素之一,物理层安全是解决物联网信息通信安全问题的有效技术。该文针对物联网中带有主动攻击......
平流层飞艇具有区域驻留持久稳定、载荷能力强、平台位置优越等优势,是极佳的观测侦查平台,应用潜力巨大,是当前临近空间领域的主......
近些年来,随着无人智能装备技术的发展,在生活中出现了不同类型的机器人,它们的功能和形态都有所不同,如在危险环境的搜索机器人,......
多功能雷达是现代电磁战场上不可或缺的重要装备,针对多功能雷达的干扰一直是一个难题。本文在研究多功能雷达信号特点和雷达对抗过......
兵棋推演是一种较为复杂的博弈对抗过程,是支持复杂对抗方案决策优化的重要手段。传统的基于兵棋推演的决策分析主要限于使用规则......
在对远程支援干扰飞机雷达干扰资源调度问题具体分析的基础上,基于雷达对抗推演仿真平台,将组网雷达干扰资源调度问题建模为一个带......
柔性作业车间调度是目前加工系统中的一个重要调度问题,对于该问题的解决方法大都存在速度较慢等缺陷,提出一种改进的Q-learning算法......
期刊
良性阵发性位置性眩晕(Benign Paroxysmal Positional Vertigo,BPPV)是一种临床常见会导致眩晕的疾病,对其进行精准有效的治疗具有重......
随着自动化技术的不断发展,车间物料运输系统不断向着智能化的方向发展,而工业AGV作为一种新型的物料运输设备,因其具有较高的柔性......
本论文主要研究动态环境下自动导引运输车(AGV)的路径规划问题,其中包括移动障碍物环境下的多AGV路径规划问题,以及在规划后AGV的实......
学位
为保证五轴机床加工过程平滑稳定,提出一种矢量解耦下的五轴数控系统路径平滑算法.五轴数控系统加工路径通过对一系列离散控制点连......
期刊
传统的自动规划小车(Automated Guided Vehicles,AGV)路径规划需要提供详细的场景地图,不适应复杂的动态环境,从而导致工作效率低,易......
为解决复杂现实环境下的水库优化调度问题,采用强化学习的Q-learning算法,以哈希表作为核心数据结构,在逐幕生成水库可行调度方案......
In this paper,we introduce the Anderson acceleration technique developed to be applied to reinforcement learning tasks.W......
Reinforcement learning based parameter optimization of active disturbance rejection control for auto
This paper proposes a liner active disturbance rejec-tion control(LADRC)method based on the Q-Learning al-gorithm of rei......
随着科学技术和市场经济的发展,在激烈竞争的市场环境下,企业面临的压力、风险越来越大,产品研发愈加受到企业的重视。针对产品研......
学位
切换系统是混杂系统中的一种典型代表,切换系统由一系列被微分方程和差分方程描述的子系统和一个决定这些子系统切换的切换信号组......
近年来,随着国内民用航空事业的飞速发展,航空器在多跑道机场场面滑行的过程中频繁发生冲突碰撞及跑道入侵等事件,从而导致进离港......
学位
多功能雷达是现代电磁战场上不可或缺的重要装备,针对多功能雷达的干扰一直是一个难题。本文在研究多功能雷达信号特点和雷达对抗过......
“互联网+健康”模式的兴起以及移动物联网、云计算、大数据、5G等信息技术与医药行业的深度融合加快医药行业的发展进程,药事服务......
Q-Learning是目前一种主流的强化学习算法,但其在随机环境中收敛速度不佳,之前的研究针对Speedy Q-Learning存在的过估计问题进行......
针对无人机自组网等高动态飞行自组织网络中,网络拓扑的快速变化导致通信链路断裂和路由重建频繁的问题,研究一种基于Q-learning的......
变电站采用智能机器人和无人机可实现高效、自动设备巡检。地面机器人在地上和室内近距离巡检方面具有优势;无人机更加灵活,巡检范围......
室内移动机器人具有广泛的运用,在提升生产效率的同时还能降低人力成本。通过多种输入的传感器信息,机器人可以在具有先验信息或不......
学位
移动机器人路径规划技术,即在给定的起始点和目标点之间找到一条符合约束条件的有效路径(约束条件可以是无碰撞、路径最短、耗能低......
在这个万物互联的时代,车辆成为第三大联网设备,车联网技术受到学术界和工业界广泛关注。车联网以信息通信技术为核心,集成了通信......
学位
随着无线通信技术的不断发展,城市轨道交通业务的逐步拓宽,面向城市轨道交通业务需求的长期演进通信技术(Long Term Evolution for ......
随着5G通信技术的不断发展,各商用进程的加快,车联网(Vehicle Ad-hoc Network,VANET)作为5G通信的重要应用场景,其相关研究得到学术......
学位
聚合了多品类能源资源的虚拟电厂为多主体参与下的竞争电力市场增添了较多不确定性.为了刻画虚拟电厂在市场博弈行为中的特点,探寻......
With the intensive deployment of users and the drastic increase of traffic load,a millimeter wave (mmWave) backhaul netw......
随着智能移动终端的普及以及网络基础建设的完善,无线自组织网络的应用越来越广泛。车联网(Vehicular Ad Hoc Network,VANET)和水下......
为了实现电子干扰机在复杂电磁环境中对辐射源的有效干扰,利用多智能体电子干扰机与信息共享机制,突破原有单传感器的有限信息感知能......
为了解决制造型企业面临的订单变更后生产再决策问题,提出了一种基于强化学习(Reinforcement learning)的生产再决策方案。对订单变......
会议
For some rodent mammals when they foraging or looking for a target, the positions and headings in their brain cells are ......
dynamic treatment regime is a sequence of decision rules,each corresponding to a decision point,that determine that next......
A dynamic treatment regime is a sequence of decision rules that specify how the dosage and/or type of treatment should b......
A dynamic treatment regime consists of decision rules that recommend how to individualize treatment to patients based on......
高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展。其飞速发展的同时也引发了路网复杂化、分布区域广......
会议
高速铁路作为国家综合交通运输体系的骨干核心,近十年来取得了飞速蓬勃的发展.其飞速发展的同时也引发了路网复杂化、分布区域广等......
期刊
Unmanned Aerial Vehicles (UAVs) enabled Aerial Base Stations (UABSs) have been studied widely in future communications.H......
Q-learning算法在解决状态-动作空间维数较大的稀疏奖励问题时存在训练效果差,甚至无法收敛的缺点。因此,提出全感知条件下基于奖......
期刊
非正交多址接入(Non-Orthogonal Multiple Access,NOMA)是解决未来大规模接入场景的潜在技术,在多小区NOMA系统中干扰情况变得异常......
针对多阶段武器装备组合规划中的选择难、规划难问题,提出基于多目标优化算法以及强化学习技术的混合优化方法。在各个阶段以装备......
A single-task and multi-decision evolutionary game model based on multi-agent reinforcement learning
In the evolutionary game of the same task for groups,the changes in game rules,personal interests,the crowd size,and ext......
本文拟采用Double Deep Q-learning模型进行算法设计,该算法是强化学习中的一种values-based算法,实现一种神经网络模型来代替表格......
为了实现基于Q-Learning的无人船在未知环境下的智能避碰功能,利用马尔科夫决策方法(MDP)建立一个智能避碰决策模型,采用玻尔兹......
会议
针对模型未知的一类离散时间多智能体系统,本文提出了一种Q-learning方法实现多智能体系统的一致性控制.该方法不依赖于系统模型,......
期刊
针对下一代移动通信对于高速率和大规模连接的需求,对认知无线电(CR)-非正交多址接入(NOMA)混(PATSQ)算法。首先,认知基站在系统环......